블로그

카테고리 이동

2022년 초 TAVE 친구들과 연구개발특구진흥재단 주최 AI-SPARK 공모전 을 나간 적이 있었다.

좋은 아이디어와 딥러닝을 통한 아이디어 검증을 보여준 덕분에 공모전에서 최우수상을 받을 수 있었고,

무엇보다 자연어 처리 NLP 큰 분야에서의 '감정 분석 Emotion Recognition' 에 대해 좀 더 깊이 공부할 수 있었던 기회가 되었었다.

하지만 이런 부분은 기록으로 남기지 않으면, 홀라당 까먹는 법

공모전 아이디어를 구체화하면서 새롭게 찾아보고, 공부했던 내용들을 기록으로 남기고자 한다.

(Emotion-Guided Video Summarization 프로젝트 깃허브 홈페이지 ↓)[Creative and Descriptive Paper Title.

Paper description.

jeiyoon.github.io

](https://jeiyoon.github.io/spark/)

(왼쪽에서 두 번째가 접니다. 최우수상!! ㅎㅎ)[“AI로 사회문제 해결”… 특구재단, 경진대회 진행 - 충청투데이

[충청투데이 이정훈 기자] 연구개발특구진흥재단은 27일 \'제3회 연구개발특구 AI SPARK 챌린지(인공지능 경진대회)\' 대회에서 최종 선정된 우수팀을 대상으로 시상식을 개최했다.이번 제3회 대회는 특구 내 출...

www.cctoday.co.kr

](https://www.cctoday.co.kr/news/articleView.html?idxno=2161084)

(다들 시간이 안 된대서, 회사에 연차 내고 나 혼자 상 받으러 대전 갔다 옴... 그래서 사진도 나혼자만...ㅎㅎ...)

연구개발특구진흥재단 AI - SPARK 제3회 경진대회

제3회 AI-SPARK 인공지능 경진대회

대전광역시, 특히 대덕구에는 수많은 정부출연연구기관(정출연)이 있고, 정출연의 행정적 업무와 연구기획 방향성을 제시하기 위하여

연구개발특구진흥재단이 있다고 한다. (이번 공모전을 통해 처음 알게 된 기관이다.)

AI-SPARK 공모전 에서는

"출연연 데이터를 바탕으로 사회적 문제를 도출하고 해결책 제시"

라는 주제로 아이디어 공모를 받았고,

이런 아이디어 기획 분야의 공모전의 경우 아무래도 하드웨어의 제약이 덜하다 보니

일반 학생이나 직장인의 접근성이 괜찮은 편이라 TAVE 내에서 참가 요청이 있었다.

(데이터를 주고 Accuracy를 최대한 끌어올리라는 공모전의 경우에는 결국 하드웨어 싸움으로 가는 경우가 많아 접근하기가 어렵다)

(데이터 분석을 위한 서버나... AWS, GCP가 얼만디...)

특구재단에서도 이 공모전에 대해 진심인 듯하고, 사회적인 분위기 또한 AI를 계속 띄우고 있으니

아마 이 공모전은 제4회 제5회 등등 지속되지 않을까 싶다.

그래서 우리의 아이디어는? 시각 정보와 음성 정보 둘 다 활용한 영상 요약!

공모전 발표 자료에서의 발제 자료 '짧은 동영상이 흥한다'

공모전에서 우리가 주목했던 사회적 문제와 아이디어 는

"짧은 영상이 온라인에서 주목받는 데에 비해, 중소 크리에이터의 경우 인적, 자본적 자원 활용의 한계로 이런 트렌드에 뒤처지고 있다. 중소 크리에이터에 대한 지원을 위해 '자동화된 그리고 좀 더 나은 성능의 영상 요약 알고리즘'을 제공했다"

였다.

여기서 사회적 문제 부분은 충분히 팩트로 설명할 수 있지만

가장 중요한 '좀 더 나은 성능의 영상 요약 알고리즘'을 실현할 수 있어야

제출할 만한 수준의 결과물로 만들 수 있다.

아이디어 요약: 시각 정보와 음성 정보 둘 다 고려한 영상 요약

기존 연구의 경우 Audio 나 Visual Information 만을 활용한 Video Summarization Algorithm 이 많았다.

그럼 이 둘을 합한다면? 좀 더 정확한 영상 요약이 되지 않을까 라는 생각이 들었다.

그렇게 해서 Visual Summarization 의 경우 'CLIP-It! Language-Guided Video Summarization' 논문을 주로 참고했고

Audio(Speech) Summerization 의 경우 ' ETRI 오픈 API 활용 사례 공모전 가작의 AI CARE' 깃허브를 참조하여

Visual information 그리고 Audio information 둘 다 활용 하여 좀 더 정확도가 높은 새로운 Video Summerization 모델 을 만들어보았다.

(모두 아래에 링크해두었습니다.)

프로세스는 약간 복잡하다.

Video로부터 Caption Information 를 뽑아낸 후, 이 Caption을 바탕으로 1차적인 요약 정보를 추출 하고

Audio 혹은 Speech로부터 Emotion Analysis 을 시행한다. 이 Emotion에 일정 점수를 부여 하여 또 다른 1차적인 요약 정보를 추출한다.

그리고 이 둘을 조합하여 최종적인 영상 요약 을 시행한다.

이걸 구현하면서 알게 되었던 AI Video Captioning 자동 영상 자막 생성, 매우 신기했었다.

그리고 Speech Emotion Recognition(SER) 또한 실제로 꽤 맞아떨어지는 편이라 이 역시 놀라웠다.

(아래는 우리의 시현 영상)

연구개발특구진흥재단 제 3회 AI-SPARK 경진대회 최우수상 - Emotion-Guided Video Summarization 시현 영상

Emotion-Guided Video Summarization 시현 영상

Video #Emotion

나름 이 정도 정확도면 괜찮지 않을까?

Video Summarization 관련 논문: CLIP-It! Language-Guided Video Summarization[CLIP-It! Language-Guided Video Summarization

A generic video summary is an abridged version of a video that conveys the whole story and features the most important scenes. Yet the importance of scenes in a video is often subjective, and users should have the option of customizing the summary by using natural language to specify what is importa...

arxiv.org

](https://arxiv.org/abs/2107.00650)

Speech Emotion Recognition(SER) 참고[ETRI AI 나눔

음성 감정인식 데이터셋 등록자 성정환 등록일 (수정일 ) 2021-11-16 22:40 (2021-11-21 23:41) 조회수 711 접근 횟수 54 추가업로드 가능 좋아요 5 내용 토론장 (2) 활동내역 Description 1. 음성 감정인식 이란? 음성 감정인식 은 사용자의 음성 데이터를 분석하여 감정을 판단하는 기술이다. 음성을 분석하는 방법에 있어서 여러가지 방법이 있는데, 음성을 텍스트로 전...

nanum.etri.re.kr

](https://nanum.etri.re.kr/share/mn99134/speechemotion?lang=ko_KR)

앞으로 기록 정리할 내용들

공모전 수상도 중요하지만, 공모전 준비하면서 얻은 지식들과 정보들을 정리하는 것 또한 중요하다.

앞으로 7개 정도의 글을 통해 이 아이디어를 검증하면서 사용했던 모델과 스킬을 정리하고자 한다.

나는 이번 프로젝트에서 음성 분석 쪽을 맡았기에, 그 부분을 좀 더 중점적으로 기록할 예정이다.

그럼 기록을 시작해보자.

[1편] 공공 데이터 찾고 활용하기 (작성 중)

[2편] 데이터 분포 확인 (작성 중)

[3편] 그래프 범례에 한글 출력하기 (작성 중)

[4편] Waveplot과 Spectrogram (작성 중)

[5편] 음성 데이터 가공 (작성 중)

[6편] Speech Emotion Recognition(SER) 음성 감정 인식 모델 (작성 중)

[7편] moviepy와 pydub (작성 중)